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Описание способов представления 
\еБ-сайтов в виде фреймовой модели 

для реализации функциональных операций 
в Интернет-клиентских системах 


Рассмотрены вопросы структурного построения У\'еБ-сайтов. Для реализации алгоритма формирования 
графа структуры сайта были выделены элементы, предложены модели, позволяющие сохранять 
информацию в реляционной базе данных для дальнейшей групповой обработки в Интернет-клиентских 
программах. 


Введение 


Одной из основных задач систем обработки данных в сети Интернет является 
задача поиска. Виртуальный информационный массив обладает высокой степенью 
динамики: каждую секунду в нем появляются новые материалы, какая-то их часть по 
разным причинам удаляется с серверов, другая же меняет адресацию. Это постоянное 
обновление с одновременным ростом объема информационного массива делает 
крайне сложным учет большинства документов, существующих в Интернете [1]. 

Важность проблемы информационного поиска в Интернете породила целую 
отрасль специальных поисковых инструментов. Условно их можно разделить на 
поисковые средства справочного типа, или просто справочники (4тесюпез), и 
поисковые системы в чистом виде (зеагсй епотез — например, Соое, КатЫег и пр.). 
Данные системы позволяют производить поиск в определенной области сети по 
ключевым словам, однако не дают развёрнутых возможностей оперирования с 
сайтами. Поэтому актуальной является задача структурного представления \е- 
сайтов для целей реализации над ними различных операций: сравнения двух сайтов, 
поиска вхождений одного сайта в другой, поиска структурных элементов одного 
сайта в другом и прочих. Решение этой задачи позволило бы программисту 
динамически формировать объект, представляющий структуру сайта, и выполнять с 
ним любые необходимые операции [2]. 

В данной статье рассматриваются основные принципы построения ууеЬ- 
сайтов и структурное построение уеБ-страниц. Ставится задача разработки 
способов представления сайта для последующего оперирования с ним как с 
объектом определенного типа и введения перечня возможных операций 
работы с таким объектом. Для решения этой задачи рассматриваются основные 
принципы структурного построения сайтов и некоторые возможные модели 
эффективного представления их структуры. 

В рамках данной задачи предлагается формализация информации о структуре 
сайта в виде ориентированного графа и разрабатывается алгоритм формирования 
искомого графа по П&-страницам, размещенным на сервере. Для сохранения 
построенного графа в реляционной базе данных приводится представление формируемой 
информации в виде фреймовой модели. 
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1 Описание операций над \уеБ-сайтами 


М!еБ-сайт состоит из ряда страниц. Таким образом, минимальной единицей 
уеБ-данных является \еБ-страница [3]. 

Любая программа, предназначенная для навигации по Интернет-пространству, 
дает возможность просматривать \\еБ-страницы, а также осуществлять поиск по 
ним. Однако в последнее время ведется речь не столько о \е-страницах, сколько о 
уеБ-сайтах. \УеБ-сайт постепенно становится самостоятельным понятием. Такая 
тенденция дает возможность выделить сайт как отдельный объект данных и иметь 
возможность осуществлять работу не с отдельными его страницами, а со всем 
сайтом [3]. Это позволит производить операции с сайтами, такие, как: 

— сравнение сайтов (по определенным критериям); 

— сортировка сайтов (по определенным признакам); 

— оценка сложности сайта; 

— расширенный поиск по сайту различной информации, такой, как текст, картинки, 
гиперссылки, элементы управления, скрипты и др.; 

— получение статистики с сайта (об определенных свойствах); 

— классификация сайтов (для того, чтобы иметь возможность классифицировать 
сайт, необходимо ввести ряд классов). 

Для представления сайта в виде объекта необходимо выделить основные 
элементы его структуры. 


2 Формализация структуры \еБ-сайта 


Каждый сайт представляет собой набор страниц. При этом у каждого сайта 
имеется главная страница, с которой ведется дальнейшая навигация по сайту. 

\М/еБ-страница — это Ви-документ, который содержит следующую информацию: 
— название страницы; 

— стиль оформления страницы (цвет фона, цвет и размер текста, количество фреймов 
на странице, размер каждого фрейма и т.д.); 

— элементы управления (кнопки, переключатели, поля ввода информации и др.); 

— рисунки; 

— анимацию; 

— информацию об используемых скриптах; 

— гиперссылки (ссылки, содержащие полный путь к другой странице — по ним 
можно осуществлять переход на другие ресурсы). 

Таким образом, практически каждый сайт организован как набор страниц, 
переход по которым производится с помощью ссылок [4], [5]. Исходя из подобной 
структуры, можно выделить несколько возможных моделей представления сайта: 

— представления в виде списка; 
— представление в виде графа. 

Описывая сайт списком, необходимо в виде списка отобразить всю информацию о 
сайте: список \еЬ-страниц с перечнем их содержимого. Если представить сайт в 
виде графа, то вершинами графа будут являться \еб-страницы, а дугами — гиперссылки. 
Такая модель представления сайта логична и наилучшим образом отражает его 
структурное представление. Кроме того, она удобна для осуществления с ней операций. 

Общая структура \\еБ-сайта представлена на рис. 1. 

Структуру, изображенную на рис. 1, можно представить в виде ориентированного 
графа. Граф, представляющий структуру \е-сайта, приведен на рис. 2. 

Граф структуры сайта состоит из множества вершин А = {Ад, 1 = 1, 2...п, 
причём вершина 4; представляет \е-страницу сайта, а и — количество страниц. 
Главной страницей сайта всегда является А.. 
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А; > Е, т.е. каждой вершине А; поставлено в соответствие множество исходящих 
дуг Е; = {а}, =1, 2...п; ] Е {1, 2...п}. Дуга ау связывает вершину А; и А; и 
соответствует гиперссылке на \\еЪ-страницу А, находящуюся на \е-странице 4). 

Таким образом, схема структуры сайта — это ориентированный граф, вершинами 
которого являются страницы /А,, а дугами — гиперссылки а;. Граф структуры сайта 
является двунаправленным, т.е. графом, в котором любые две вершины могут 


взаимно ссылаться друг на друга. 


элементы 


управления 
У!еб-страница 1 текст 


картинки и 


элементы ссылка1 анимация 


управления 
текст ссылка2. 
картинки и 


Ех [| 
У!еб-страница №+$+1 
ссылка] 
Главная \У!еБ-страница элементы ссылка! 


управления 

элементы ссылка1 текст Е 
управления картинки и 

текст аа. анимация Е" 
картинки и 

анимация 


\М!е5- М 
И МеБ-страница №+5+К+1 


управления элементы ссылка! 

текст к: управления 

картинки и текст ссылка2. 

анимация ЕЯ картинки и ИИ 
анимация 


Рисунок 1 — Общая схема структуры \еБ-сайта 
ай 


Рисунок 2 — Граф, представляющий структуру сайта 
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Возможны случаи, когда модель будет вырождаться в однонаправленный граф, 
то есть такой граф, никакие из двух вершин которого не имеют одновременно 
ссылки друг на друга (то есть \71, } не существуют одновременно ах и а). 

Также возможны ситуации, когда модель сайта в виде графа не будет иметь 
циклов, т.е. будет вырождаться в дерево. Граф структуры сайта может быть пред- 
ставлен математически в виде матрицы смежности, списка или любым другим способом. 

Решаемая задача сводится к восстановлению множества {А} и {Е} по \е5- 
сайту, расположенному на сервере. 


3 Алгоритм формирования графа структуры сайта 


Исходя из анализа структуры сайта, можно определить общий алгоритм 
формирования графа его структуры. Укрупненный алгоритм формирования графа 
структуры сайта представлен на рис. 3. 

Алгоритм начинает работу с формирования главной страницы сайта А1. 
Выполняется посылка запроса на главную страницу сайта (результатом запроса является 
Ныя-документ). По полученной информации формируется А!. Также извлекается 
информация о содержимом страницы: заголовок, элементы управления, рисунки и др. 
(которые могут быть сохранены как свойства страницы), а также гиперссылки на другие 
страницы сайта а; (в случае первой итерации цикла разбора — а1;). 

Поиск гиперссылок производится в цикле. Каждая найденная ссылка а; 
проверяется на принадлежность к рассматриваемому серверу. Если данное условие 
выполняется, то производится проверка, не создана ли уже страница А; 
(результирующая страница). Если нет, то А; создается и помещается в очередь О для 
более поздней обработки. Если же А; существует, то у текущей рассматриваемой 
страницы добавляется ссылка а; и поиск продолжается. 

После того, как все ссылки а; страницы А; найдены, из очереди О извлекается 
новый адрес А, снова посылается запрос и производится очередная итерация цикла 
алгоритма. 

Алгоритм рекурсивен, для расчетов он использует очередь О, в которой хранит 
адреса найденных страниц. Алгоритм заканчивает свою работу, когда очередь О 
пуста. 

В результате работы алгоритма формируется объект, представляющий модель 
сайта, с которой в дальнейшем можно осуществлять различные операции, такие, как 
сравнение, сортировка, поиск и др. 

Реализация описанной методики требует описания предметной области в виде 
структуры реляционной базы данных. 

Исходя из описанного алгоритма формирования графа структуры сайта, 
опишем средства, с помощью которых следует описать полученный объект. 

Одним из наиболее используемых способов описания знаний является 
представление в виде фреймовой модели [5]. Его распространенность обусловлена 
близостью к концепции повсеместно применяемого объектно-ориентированного 
программирования. Представим структуру каждой вершины графа (структуры сайта) 
в виде фреймовой модели, изображённой на рис. 4. 
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1=1; 


Создаём пустую очередь О 


Очередь О пуста? 
Нет 


Извлечение текущего адреса А; Создание новой страницы 4. 


из О. Посылка запроса и Посылка запроса и получение 
получение данных 4. данных 4. 


Извлечение информации 
о свойствах /4;. Сохранение А; в БД. 


Получение ссылки из В 
Извлечение адреса а... 


Нет 
Адрес корректен? 


Да 


Нет 


Вершина 4; 
существует? 


Создание страницы А; 


и добавление её в О 


Да 


Сохранение дуги а; в БД. 


Нет 


а; последняя для А; 


Нет 
Очередь О пуста? 


Да 


Рисунок 3 — Алгоритм формирования графа структуры сайта 


Каждая вершина графа структуры сайта представляется в виде объекта, хра- 
нящего информацию о странице сайта А‚, наборе свойств этой страницы (например, 
элементов управления или других, в зависимости от поставленных задач) и дуг ах, 
принадлежащих А. В свою очередь, дуга а, — это объект, задаваемый индексами Ги] 
(1=1,2...п,]/ =1,2...п) и значением ссылки (т.е. строковым значением адреса). 
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Имя фрейма « Страница Аз» 


Параметр а: 


Параметр Свойство 1 
Параметр > 
Параметр Свойство и 


Имя фрейма «Свойство» Имя фрейма «Дуга аз» 
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Данные Наименование Данные Я 
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Данные Значение ссылки 
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Рисунок 4 — Фреймовая модель для хранения информации о графе сайта 


Свойства вершины А; могут быть заданы различными способами в зависимости 
от того, какие именно свойства страницы необходимо обрабатывать в рамках 
конкретной задачи. В общем случае для каждого свойства следует задать тип, 
наименование и значение. 

После разбора структуры сайта и представления его в виде графа, сайт может 
быть сохранён в реляционной базе данных для дальнейшей обработки [6]. Таким 
образом, появится возможность сохранять в базе данных множество сайтов для 
дальнейшего анализа, поиска, сравнения, выявления однотипных страниц и ссылоч- 
ных структур и прочих операций. 

В случае, если в базе данных сохранятся все свойства каждой \/еБ-страницы А, 
сайт впоследствии может быть целиком восстановлен в том виде, в каком он был 
сохранён в базе данных. 


Выводы 


В данной статье были рассмотрены принципы организации Интернет-сайтов и 
поставлена задача разработки эффективной модели представления структуры сайта 
для организации работы с ним, такой, как поиск по сайту, сравнение, сортировка или 
оценка сложности \уеБ-сайта. 

Была рассмотрена структура \еБ-сайтов и предложено несколько возможных 
моделей их представления — такие, как списковая модель и представление в виде 
графа. Было формализовано представление модели сайта в виде графа и разработан 
алгоритм формирования графа по сайту. Для реализации алгоритма были выделены 
структурные элементы сайта — страница и ссылка. 

Для выполнения операций с \еЬ-сайтом из Интернет-клиентских программ, а 
также для сохранения сайта в реляционной базе данных (для дальнейшей групповой 
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обработки сайтов) приведено представление сайта в виде фреймовой модели. Пред- 
ложенная модель является структурно расширяемой. 

Данная методика может быть применена для написания программных модулей 
в Интернет-клиентских программах. Применение методики формирования объекта 
ууеБ-сайта позволит производить ряд операций над информацией, хранимой в Интернете. 
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А. Ольшевський, А.А. Кондратьева 

Опис способв представлення ууеБ-сайтв у вигляд! фреймовот моделЕ для реалвацй функцюнальних 
операций в Титернет-клентських системах 

Розглянуто питання структурно! побудови \еб-сайтв. Для реаллзацИ алгоритму формування графа 
структури сайта було видлено елементи, запропоновано моделт, як! дозволяють збер!гати 1нформащю 
у релящиний баз! даних для подальшо1 групово! обробки в [нтернет-клентських програмах. 
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